DCT ViT 및 압축 비디오 트랜스포머 기술

DCT ViT 및 압축 비디오 트랜스포머 기술

2025-12-10, G30DR

1. 서론: 비디오 이해의 패러다임 전환과 주파수 도메인의 부상

현대 컴퓨터 비전 분야, 특히 비디오 행동 인식(Action Recognition)은 데이터의 폭발적인 증가와 이를 처리하기 위한 연산 비용의 급증이라는 이중적인 과제에 직면해 있다. 비디오 데이터는 정지 이미지에 시간 차원(Temporal Dimension)이 추가된 형태로서, 인접 프레임 간의 픽셀 중복성이 매우 높다는 특징을 가진다. 기존의 3D CNN(Convolutional Neural Network)이나 순수 RGB 기반의 비디오 트랜스포머(Video Transformer) 모델들은 이러한 비디오 데이터를 처리하기 위해 모든 프레임을 픽셀 공간(Pixel Space)에서 분석하는 접근 방식을 취해왔다. 이는 높은 인식 정확도를 보장하지만, 입력 데이터의 크기가 커짐에 따라 연산량과 메모리 사용량이 기하급수적으로 증가하는 문제를 야기한다. 특히, 실제 서비스 환경에서는 비디오가 압축된 비트스트림(Bitstream) 형태로 전송 및 저장되는데, 이를 분석하기 위해 다시 RGB 프레임으로 복원(Decoding)하는 과정에서 상당한 계산 자원과 지연 시간(Latency)이 소모된다.

이러한 비효율성을 극복하기 위해 최근 학계와 산업계에서는 비디오 압축 표준(MPEG, H.264/AVC, HEVC 등)의 핵심 알고리즘인 **이산 코사인 변환(DCT, Discrete Cosine Transform)**과 딥러닝 모델, 특히 **비전 트랜스포머(ViT, Vision Transformer)**를 결합하려는 시도가 활발히 이루어지고 있다. DCT는 신호의 에너지를 저주파 성분에 집중시키는 ‘에너지 압축(Energy Compaction)’ 특성을 가지며, 이는 인간의 시각 시스템(HVS)이 고주파 잡음보다는 저주파의 형상 정보에 더 민감하다는 인지과학적 원리에 기반한다.1

본 보고서는 **DCT ViT (DCT 압축 비디오 트랜스포머)**로 대표되는 주파수 도메인 기반의 비디오 이해 기술을 심층적으로 분석한다. 분석의 범위는 크게 두 가지 축으로 나뉜다. 첫째, 비전 트랜스포머 내부에서 DCT를 활용하여 불필요한 고주파 토큰을 제거함으로써 모델을 경량화하는 토큰 가지치기(Token Pruning) 기술이다. 둘째, 비디오 압축 과정에서 이미 생성된 I-프레임, 모션 벡터(Motion Vector), 잔차(Residual) 등의 압축 도메인 정보를 직접 입력으로 받아 디코딩 비용을 절감하는 압축 비디오 행동 인식(Compressed Video Action Recognition) 기술이다. 2024년 IEEE Access에 발표된 DCT-ViT 연구부터 MM-ViT, FSConformer, FreqTNet 등 최신 SOTA(State-of-the-Art) 모델들의 아키텍처와 성능을 면밀히 검토하고, 주파수 도메인 학습이 가져올 기술적 혁신과 미래 전망을 제시한다.

2. 주파수 도메인 변환과 비디오 압축의 이론적 배경

DCT ViT와 압축 비디오 트랜스포머를 이해하기 위해서는 먼저 이들이 기반하고 있는 신호 처리 이론과 비디오 압축 기술에 대한 이해가 선행되어야 한다.

2.1 이산 코사인 변환 (DCT)의 원리와 특성

DCT는 시간 도메인이나 공간 도메인의 신호를 주파수 도메인으로 변환하는 기법 중 하나로, 신호를 서로 다른 주파수를 가진 코사인 함수의 합으로 표현한다.1 퓨리에 변환(Fourier Transform)과 유사하지만, 복소수가 아닌 실수(Real Number)만을 사용하여 연산이 가능하기 때문에 디지털 신호 처리 및 하드웨어 구현에 훨씬 유리하다.

  • 에너지 압축 (Energy Compaction): 자연 이미지나 비디오 프레임의 경우, 인접한 픽셀 간의 상관관계가 매우 높다. 이를 주파수 도메인으로 변환하면, 이미지의 전체적인 윤곽이나 구조를 나타내는 정보는 소수의 저주파 계수(Low-frequency Coefficients)에 집중되고, 급격한 변화나 세밀한 텍스처를 나타내는 고주파 계수(High-frequency Coefficients)는 그 값이 0에 가깝거나 상대적으로 작아진다. DCT는 이러한 에너지 집중 특성이 다른 변환 기법(예: DFT)보다 뛰어나다.2
  • 비상관화 (Decorrelation): 픽셀 도메인에서는 데이터 간의 종속성이 강하지만, DCT 변환 후의 계수들은 통계적으로 서로 독립적인 성향을 띤다. 이는 딥러닝 모델이 데이터의 특징을 학습할 때 중복된 정보를 배제하고 핵심적인 특징(Feature)만을 추출하는 데 도움을 준다.1

2.2 비디오 압축 표준과 GOP 구조

대부분의 비디오 데이터는 저장 및 전송 효율을 위해 압축된 상태로 존재한다. MPEG, H.264 등의 표준은 GOP (Group of Pictures) 구조를 사용하여 시간적 중복성을 제거한다.3

  • I-프레임 (Intra-frame): 다른 프레임을 참조하지 않고 독립적으로 압축된 프레임이다. 정지 이미지 압축(JPEG)과 유사하게 RGB 정보를 DCT 변환하고 양자화(Quantization)하여 저장한다. 비디오의 전체적인 문맥과 외형(Appearance) 정보를 담고 있는 핵심 프레임이다.
  • P-프레임 (Predicted-frame): 이전 프레임(I-프레임 또는 이전 P-프레임)을 참조하여 현재 프레임을 예측한다. 픽셀 값을 직접 저장하는 대신, 이전 프레임의 특정 블록이 어디로 이동했는지를 나타내는 **모션 벡터(Motion Vector)**와, 예측된 이미지와 실제 이미지 간의 차이인 **잔차(Residual)**만을 저장한다.
  • B-프레임 (Bi-directional predicted frame): 이전 프레임과 이후 프레임을 모두 참조하여 예측한다. 압축 효율은 가장 높으나 디코딩 시 미래의 프레임 데이터가 필요하므로 실시간 처리에는 제약이 있을 수 있다.

압축 비디오 행동 인식 모델들은 이러한 P-프레임의 모션 벡터와 잔차 정보를 ‘무료로 얻을 수 있는(Free computation)’ 특징으로 활용한다. 전통적인 방식에서 3D CNN이나 Optical Flow 알고리즘을 통해 막대한 연산을 들여 추출해야 했던 움직임 정보를, 압축 비트스트림 파싱만으로 획득할 수 있기 때문이다.5

3. DCT-ViT: 주파수 도메인 기반의 효율적 비전 트랜스포머 모델

2024년 Jongho Lee 등이 IEEE Access에 발표한 DCT-ViT는 비전 트랜스포머의 계산 효율성을 극대화하기 위해 주파수 도메인에서의 토큰 가지치기(Pruning) 전략을 제안한 연구이다.2 이 연구는 “인간은 고주파 정보(디테일)보다 저주파 정보(구조, 형상)를 통해 사물을 인식한다“는 인지적 가설을 딥러닝 모델 설계에 반영한 것이다.

3.1 아키텍처 및 핵심 메커니즘

DCT-ViT는 표준적인 ViT(예: DeiT) 구조를 따르되, 각 스테이지(Stage)에 DCT 레이어DC-Transformer 레이어를 통합하였다. 전체 아키텍처는 4개의 스테이지로 구성되며, 단계적으로 토큰의 수를 줄여나가는 계층적(Hierarchical) 구조를 가진다.6

3.1.1 주파수 도메인 토큰 가지치기 (Frequency Domain Token Pruning)

이 모델의 가장 큰 특징은 입력 이미지를 패치(Patch) 단위로 분할한 후, 2D DCT를 수행하여 주파수 계수로 변환한다는 점이다. 변환된 계수들은 저주파에서 고주파 순으로 정렬되는데, 모델은 이 중 정보량이 적은 고주파 영역의 토큰들을 과감하게 제거한다.

  • 정적 제거(Static Pruning)의 이점: 기존의 동적 가지치기(Dynamic Pruning) 기법들은 입력 이미지의 내용에 따라 실시간으로 중요한 토큰을 선별해야 했기에, 이를 위한 추가적인 모듈(Policy Network 등)과 연산이 필요했다. 반면, DCT-ViT는 주파수 특성에 기반하여 통계적으로 덜 중요한 고주파 영역을 정적으로, 그리고 일괄적으로 제거한다.6 이는 추가적인 학습 파라미터나 복잡한 결정 과정 없이도 연산량을 즉각적으로 줄일 수 있음을 의미한다.
  • 정보 보존: DCT의 에너지 집중 특성 덕분에, 하위 50% 이상의 고주파 토큰을 제거하더라도 객체 인식에 필수적인 정보(저주파 성분)는 온전히 보존된다. 이는 JPEG 압축이 고주파 성분을 제거하여 용량을 줄이면서도 화질 저하를 최소화하는 원리와 동일하다.2

3.1.2 DC-Transformer 블록 구성

DCT-ViT의 각 스테이지는 다음과 같이 구성된다.

  1. DCT Layer: 입력 피처맵을 주파수 도메인으로 변환한다.
  2. Pruning: 설정된 비율(Keep Rate)에 따라 고주파 토큰을 폐기한다. 초기 스테이지(Stage 1)에서는 정보 손실을 방지하기 위해 가지치기를 수행하지 않으며, Stage 2, 3, 4로 갈수록 가지치기 비율을 높여 연산 효율을 극대화한다.6
  3. DC-Transformer Layer: 남은 저주파 토큰들을 대상으로 셀프 어텐션(Self-Attention)과 FFN(Feed-Forward Network) 연산을 수행한다. 토큰 수(N)가 줄어들었기 때문에, O(N^2)의 복잡도를 가지는 어텐션 연산 속도가 획기적으로 빨라진다.

3.2 성능 평가 및 분석

ImageNet-1K 데이터셋을 이용한 실험 결과는 DCT-ViT의 효율성을 명확히 보여준다.

표 1. DCT-ViT와 베이스라인 모델(DeiT)의 성능 비교 (ImageNet-1K) 2

모델명유지 비율 (Keep Rate)Top-1 정확도 (%)연산량 (MACs, G)파라미터 수 (M)효율성 분석
DeiT-Small100%79.84.622.0Baseline (기준)
DCT-ViT-Small100%80.244.0421.5연산량 12% 감소, 정확도 0.44%p 증가
DCT-ViT-Small75%79.963.4721.3연산량 25% 감소, 정확도 유지 이상
DCT-ViT-Small60%79.082.5520.8연산량 44% 감소, 정확도 소폭 하락
DeiT-Tiny100%72.21.35.0Baseline (기준)
DCT-ViT-Tiny100%73.271.0966.0연산량 15% 감소, 정확도 1.07%p 증가
DCT-ViT-Tiny53%72.370.6885.7연산량 47% 감소, 정확도 0.17%p 증가

위 표에서 주목할 점은 DCT-ViT-Small 모델이 연산량을 25%나 줄였음에도 불구하고 베이스라인 모델보다 오히려 높은 정확도(79.96% vs 79.8%)를 기록했다는 사실이다. 이는 고주파 성분에 포함된 노이즈(Noise)가 제거됨으로써 모델의 과적합(Overfitting)을 방지하고 일반화(Generalization) 성능이 향상되었음을 시사한다. 또한, 연산량을 거의 절반 수준(44% 감소)으로 줄였을 때도 정확도 하락폭은 0.72%p에 불과하여, 엣지 디바이스와 같이 리소스가 극도로 제한된 환경에서 매우 유용한 솔루션이 될 수 있음을 입증하였다.2

3.3 뇌파(EEG) 신호 처리를 위한 DCT-ViT

흥미롭게도, ’DCT-ViT’라는 명칭은 컴퓨터 비전뿐만 아니라 뇌과학 분야에서도 사용되고 있다. Ahmed Fares 등의 연구(2025)에서는 뇌파(EEG) 신호를 분석하여 사람이 보고 있는 시각적 자극의 의미(Semantic)를 해독하기 위해 Spatial-Temporal Transformer로서의 DCT-ViT를 제안하였다.7

이 모델은 EEG 신호를 3D 공간-시간 표현으로 변환한 뒤, 이를 DCT 임베딩(DCT Embedding)과 결합하여 트랜스포머에 입력한다. 여기서 DCT는 뇌파의 주파수 대역별 활성화 변동성을 정량화하는 역할을 하며, 이를 통해 단순한 뇌 상태 분류를 넘어 고차원적인 인지 정보를 해독하는 데 성공하였다. 이 모델은 Semantics-EEG 데이터셋에서 72.28%의 정확도를 달성하며 기존 LSTM 기반 모델들을 크게 상회하였다.7 이는 주파수 도메인 분석과 트랜스포머의 결합이 비전뿐만 아니라 시계열 신호 처리 전반에 걸쳐 강력한 성능을 발휘할 수 있음을 보여주는 사례이다.

4. 압축 비디오 행동 인식: 구조와 모델

DCT-ViT가 모델 내부에서의 연산 효율화를 위해 주파수 변환을 사용했다면, 압축 비디오 행동 인식(Compressed Video Action Recognition) 분야는 입력 데이터 자체를 압축된 상태(Compressed Domain)로 유지하여 전처리 및 추론 속도를 높이는 데 주력한다.

4.1 압축 도메인 데이터의 활용 전략

전통적인 비디오 인식 모델은 압축된 비디오 파일(.mp4,.avi 등)을 프레임 단위의 RGB 이미지로 완전히 디코딩한 후 입력으로 사용한다. 그러나 비디오 압축 코덱은 이미 움직임 정보(모션 벡터)와 텍스처 변화 정보(잔차)를 계산하여 비트스트림에 저장해 두었다. 최신 연구들은 이 정보를 재활용함으로써 무거운 Optical Flow 연산을 대체하고 디코딩 시간을 단축한다.

  • I-프레임 활용: RGB 정보가 온전히 살아있으므로 공간적 특징(Spatial Feature) 추출에 사용된다.
  • P-프레임 활용: 모션 벡터는 행동의 동적 특성(Temporal Dynamics)을, 잔차는 모션 벡터가 놓친 미세한 움직임이나 엣지 정보를 보완한다. 이들은 일반적으로 해상도가 낮고 노이즈가 많지만, 행동 인식에는 충분한 단서를 제공한다.9

4.2 주요 모델 심층 분석

4.2.1 MM-ViT (Multi-Modal Video Transformer)

MM-ViT는 압축 비디오 도메인에 순수 트랜스포머 아키텍처를 도입한 대표적인 모델이다.10 WACV 2022에서 발표된 이 모델은 I-프레임, 모션 벡터, 잔차, 그리고 오디오(Audio)까지 포함하는 4가지 모달리티를 동시에 활용한다.

  • 입력 파이프라인: 각 모달리티는 개별적인 선형 투영(Linear Projection)을 통해 임베딩된다. 특히 P-프레임의 정보(MV, Residual)는 RGB로 완전히 복원되지 않고 경량화된 형태로 처리되어 계산 비용을 낮춘다.11
  • Factorized Attention: 공간, 시간, 모달리티라는 3가지 차원을 모두 고려해야 하므로 연산 복잡도가 매우 높다. MM-ViT는 이를 해결하기 위해 어텐션 연산을 각 차원별로 분해(Factorize)하는 전략을 취했다. 즉, O(N \cdot T \cdot S)의 복잡도를 O(N + T + S) 형태로 분해하여, 성능 저하 없이 연산량을 대폭 감소시켰다.
  • 성능: Kinetics-400 데이터셋에서 Top-1 정확도 74.0%~76.0%를 기록하며, 기존의 무거운 RGB 기반 3D CNN 모델들과 대등한 성능을 보였다. 특히 오디오 정보를 결합했을 때 인식 정확도가 유의미하게 향상됨을 확인하였다.12

4.2.2 FSConformer (Frequency-Spatial-Domain CNN-Transformer)

FSConformer는 2023년 IEEE Smart World Congress에서 발표된 모델로, 주파수 도메인과 공간 도메인의 장점을 결합한 하이브리드 구조를 가진다.13

  • Two-Stream 구조:
  1. 주파수 스트림 (Frequency Stream): DCT 계수를 입력으로 받는 CNN(ResNet 기반)을 사용한다. DCT 계수는 이미지의 미세한 엣지와 텍스처 정보를 고주파 성분에 담고 있어, 작은 물체나 미세한 움직임을 포착하는 데 유리하다.
  2. 공간 스트림 (Spatial Stream): 다운샘플링된 RGB 프레임을 입력으로 받는 비전 트랜스포머를 사용한다. 이는 비디오의 전역적인 문맥(Global Context)과 장기적인 시간 의존성을 모델링한다.
  • 상호보완성: 실험 결과, FSConformer는 Kinetics-400 및 Kinetics-700 데이터셋에서 기존 압축 도메인 모델들을 상회하는 성능을 보였다. 특히 작고 국소적인 행동(Small and Local Actions)을 인식하는 데 있어 RGB 단일 모델보다 뛰어난 성능을 발휘했는데, 이는 주파수 도메인 정보가 RGB 모델이 놓치기 쉬운 세부 정보를 보완해 주었기 때문이다.15

4.2.3 FreqTNet (Frequency-Temporal Feature Integration Framework)

FreqTNet은 2025년 관련 연구로 소개된 최신 모델로, ViT가 고주파 성분을 간과하는 경향이 있다는 점에 주목하여 이를 보정하기 위한 모듈들을 제안하였다.16

  • FTE (Frequency-Aware and Temporal-Spatial Embedding): 입력 단계에서부터 필터링된 DCT 계수를 명시적으로 주입(Inject)하여, 모델이 고주파 정보(텍스처, 엣지)를 학습하도록 유도한다.16
  • FTIA (Frequency-Temporal Interaction Attention): 시간적 동적 특성과 고주파 특징을 계층적으로 통합하는 새로운 어텐션 메커니즘이다. 이를 통해 ’Typing’이나 ’Handshaking’과 같이 미세한 손동작이 중요한 행동 인식에서 높은 정확도를 달성하였다.16
  • 효율성: 전처리 속도 측면에서 완전 디코딩 방식 대비 약 28.4배의 속도 향상(52.2ms vs 1481ms)을 달성하여, 실시간 비디오 분석 시스템에서의 효용성을 입증하였다.16

4.2.4 SpectFormer (Spectral Transformer)

SpectFormer는 트랜스포머 아키텍처 자체를 주파수 도메인 관점에서 재설계한 모델이다.17 초기 레이어에 스펙트럼 레이어(Spectral Layer)를 배치하여 푸리에 변환(DFT) 등을 통해 토큰 간의 정보를 전역적으로 혼합(Mixing)하고, 깊은 레이어에서는 표준 어텐션을 사용하는 하이브리드 구조를 취한다. 이는 어텐션 메커니즘이 수행하는 ’토큰 간 정보 교환’을 주파수 도메인 변환을 통해 훨씬 적은 연산량으로 구현할 수 있음을 보여준다.

5. 성능 비교 및 비교 분석

각 모델의 성능을 비디오 행동 인식의 표준 벤치마크인 Kinetics-400 데이터셋을 기준으로 비교한다. 또한, RGB 기반의 대표적인 트랜스포머 모델인 TimeSformer와의 비교를 통해 압축 도메인 모델의 경쟁력을 분석한다.

표 2. Kinetics-400 데이터셋에서의 모델별 성능 및 특성 비교

모델 유형모델명입력 데이터Top-1 정확도주요 특징 및 비고
RGB-ViTTimeSformerRaw RGB Frames75.8% ~ 78.0%높은 정확도, 그러나 막대한 학습/추론 비용 (416~ GPU hours) 19
RGB-ViTViViT-LRaw RGB Frames77.0% ~ 80.0%+튜브렛(Tubelet) 임베딩 사용, TimeSformer보다 더 높은 연산량 20
CompressedCoViARI, MV, Res (CNN)70.4%초기 압축 도메인 모델, 3개의 CNN을 앙상블하는 방식 4
CompressedMM-ViTI, MV, Res, Audio74.0% ~ 76.0%순수 트랜스포머, RGB 모델에 근접한 성능, 높은 추론 효율성 10
CompressedFSConformerRGB + DCTCompetitive주파수(CNN)+공간(ViT) 융합, 작은 객체/동작 인식에 강점 13
CompressedFreqTNetI, P (DCT injected)SOTA고주파 정보 활용 극대화, 전처리 속도 28배 향상 16

심층 분석:

  1. 정확도와 효율성의 트레이드오프 해소: 과거 CoViAR와 같은 초기 모델들은 속도는 빨랐으나 정확도가 RGB 모델에 비해 현저히 낮았다(약 5~8%p 차이). 그러나 MM-ViT와 FreqTNet의 등장으로 이 격차는 1~2%p 내외로 좁혀지거나, 특정 조건하에서는 대등한 수준까지 올라왔다. 이는 트랜스포머의 강력한 표현 학습 능력이 노이즈가 많은 압축 데이터(MV, Residual)에서도 유의미한 패턴을 효과적으로 추출함을 의미한다.
  2. 주파수 정보의 고유한 가치: FSConformer와 FreqTNet의 연구 결과는 DCT 계수가 단순히 압축을 위한 중간 산출물이 아니라, 행동 인식에 있어 RGB 픽셀이 제공하지 못하는 고유한 정보(Frequency Semantic)를 담고 있음을 시사한다. 특히 텍스처의 변화나 미세한 진동과 같은 정보는 주파수 도메인에서 더 뚜렷하게 나타난다.
  3. 오디오의 역할: MM-ViT가 보여준 오디오 모달리티의 통합 효과는 중요하다. 비디오는 시각 정보뿐만 아니라 청각 정보를 포함하고 있으며, ‘박수 치기’, ‘악기 연주’ 등의 행동은 소리 정보가 결합될 때 인식률이 비약적으로 상승한다. 트랜스포머 구조는 이러한 이질적인 모달리티를 통합(Fusion)하는 데 있어 CNN보다 훨씬 유연하다.

6. 기술적 난제와 미래 전망

6.1 기술적 난제 (Technical Challenges)

  • 비표준 입력 처리: 현재 대부분의 딥러닝 프레임워크(PyTorch, TensorFlow)와 하드웨어 가속기(GPU, TPU)는 RGB 텐서 연산에 최적화되어 있다. 가변 길이의 압축 비트스트림이나 주파수 도메인 계수를 효율적으로 처리하기 위해서는 커스텀 CUDA 커널이나 FPGA와 같은 전용 하드웨어의 지원이 필수적이다.21
  • I-프레임 의존성: 대부분의 압축 비디오 모델은 여전히 주기적인 I-프레임(RGB)에 크게 의존한다. I-프레임 없이 P-프레임(변화량)만으로 장시간 학습을 수행할 경우, 오차가 누적되는 드리프트(Drift) 현상이 발생하여 성능이 급격히 저하될 수 있다. 이를 해결하기 위한 ‘장기적 문맥 유지(Long-term Context Maintenance)’ 기술이 요구된다.

6.2 향후 연구 방향 및 전망

  • 뉴럴 코덱과의 공진화 (Co-evolution with Neural Codecs): 최근 딥러닝 기반의 비디오 압축(Neural Video Compression) 기술이 발전함에 따라, 압축을 위한 인코더가 동시에 인식(Recognition)을 위한 특징(Feature)도 추출하는 **압축-인식 통합 모델(Compression-Recognition Co-design)**이 등장할 것이다. 이는 ’사람이 보기 위한 영상’이 아닌 ’기계가 분석하기 위한 영상(Video for Machines)’이라는 새로운 표준(MPEG-VCM 등)과 맞물려 발전할 것이다.
  • 온디바이스(On-device) AI로의 확산: DCT-ViT와 FreqTNet이 입증한 낮은 연산량과 전처리 속도는 엣지 디바이스에서의 실시간 행동 인식을 가능하게 한다. CCTV, 드론, 자율주행차 등에서 서버로 영상을 전송하지 않고 엣지 단에서 즉각적으로 위험 상황을 감지하거나 행동을 분석하는 애플리케이션이 보편화될 것이다.
  • 멀티모달 학습의 심화: MM-ViT에서 확인된 오디오-비주얼 융합을 넘어, 텍스트(자막, 메타데이터)나 깊이(Depth) 정보 등 다양한 모달리티를 주파수 도메인 정보와 결합하는 연구가 가속화될 것이다. 이는 더욱 강건하고 범용적인 비디오 이해 모델의 탄생으로 이어질 것이다.

7. 결론

DCT ViT 및 관련 압축 비디오 트랜스포머 연구들은 단순히 계산 속도를 높이는 최적화 기법을 넘어, 비디오 데이터의 본질인 ’주파수’와 ’중복성’을 딥러닝 모델의 구조적 설계에 반영하는 중요한 패러다임의 전환을 보여준다. **DCT-ViT(Jongho Lee)**는 주파수 도메인에서의 토큰 가지치기를 통해 트랜스포머의 효율성을 이론적, 실험적으로 증명하였으며, MM-ViT, FSConformer, FreqTNet 등의 모델들은 이러한 원리를 확장하여 압축된 비디오 데이터만으로도 SOTA 수준의 행동 인식 성능을 달성할 수 있음을 입증하였다.

이러한 기술적 진보는 향후 메타버스, 자율주행, 지능형 관제 시스템 등 방대한 비디오 데이터를 실시간으로 처리해야 하는 분야에서 핵심적인 기반 기술로 자리 잡을 것이다. 특히, 데이터 센터의 탄소 배출을 줄이고 엣지 디바이스의 배터리 효율을 높이는 그린 AI(Green AI) 관점에서도 주파수 도메인 기반의 비디오 처리 기술은 지속적인 주목과 연구가 필요한 분야이다.

8. 참고 자료

  1. DctViT: Discrete Cosine Transform meet vision transformers - ResearchGate, https://www.researchgate.net/publication/377810191_DctViT_Discrete_Cosine_Transform_meet_vision_transformers
  2. (PDF) DCT-ViT: High-Frequency Pruned Vision Transformer with Discrete Cosine Transform, https://www.researchgate.net/publication/381199032_DCT-ViT_High-Frequency_Pruned_Vision_Transformer_with_Discrete_Cosine_Transform
  3. VCT: A Video Compression Transformer, https://proceedings.neurips.cc/paper_files/paper/2022/file/54dcf25318f9de5a7a01f0a4125c541e-Paper-Conference.pdf
  4. Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition - arXiv, https://arxiv.org/html/2503.13724v1
  5. DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition | Request PDF - ResearchGate, https://www.researchgate.net/publication/338506534_DMC-Net_Generating_Discriminative_Motion_Cues_for_Fast_Compressed_Video_Action_Recognition
  6. DCT-ViT: High-Frequency Pruned Vision Transformer With Discrete Cosine Transform - IEEE Xplore, https://ieeexplore.ieee.org/iel8/6287639/10380310/10549904.pdf
  7. Understanding What the Brain Sees: Semantic Recognition from EEG Responses to Visual Stimuli Using Transformer - ResearchGate, https://www.researchgate.net/publication/397385186_Understanding_What_the_Brain_Sees_Semantic_Recognition_from_EEG_Responses_to_Visual_Stimuli_Using_Transformer
  8. Understanding What the Brain Sees: Semantic Recognition from EEG Responses to Visual Stimuli Using Transformer - MDPI, https://www.mdpi.com/2673-2688/6/11/288
  9. Compressed Video Action Recognition With Dual-Stream and Dual-Modal Transformer, http://ieeexplore.ieee.org/document/10262342/
  10. MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition - CVF Open Access, https://openaccess.thecvf.com/content/WACV2022/papers/Chen_MM-ViT_Multi-Modal_Video_Transformer_for_Compressed_Video_Action_Recognition_WACV_2022_paper.pdf
  11. Efficient Transformer-Based Compressed Video Modeling via Informative Patch Selection - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC9823838/
  12. MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition, https://www.youtube.com/watch?v=Uro7Z5ldDPk
  13. FSConformer: A Frequency-Spatial-Domain CNN-Transformer Two-Stream Network for Compressed Video Action Recognition - IEEE Xplore, https://ieeexplore.ieee.org/iel7/10447020/10448518/10448953.pdf
  14. [PDF] Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement | Semantic Scholar, https://www.semanticscholar.org/paper/3d99464118097a070343ef2d06d7c67a9074e234
  15. FSConformer: A Frequency-Spatial-Domain CNN-Transformer Two-Stream Network for Compressed Video Action Recognition - IEEE Xplore, https://ieeexplore.ieee.org/document/10448953/
  16. Frequency-Temporal Feature Integration for Compressed Video Action Recognition - BMVA Archive, https://bmva-archive.org.uk/bmvc/2025/assets/papers/Paper_445/paper.pdf
  17. [2304.06446] SpectFormer: Frequency and Attention is what you need in a Vision Transformer - ar5iv, https://ar5iv.labs.arxiv.org/html/2304.06446
  18. SpectFormer: Frequency and Attention is what you need in a Vision Transformer | Request PDF - ResearchGate, https://www.researchgate.net/publication/390603968_SpectFormer_Frequency_and_Attention_is_what_you_need_in_a_Vision_Transformer
  19. TimeSFormer: Efficient and Effective Video Understanding Without Convolutions - Medium, https://medium.com/@kdk199604/timesformer-efficient-and-effective-video-understanding-without-convolutions-249ea6316851
  20. Optimizing ViViT Training: Time and Memory Reduction for Action Recognition - arXiv, https://arxiv.org/pdf/2306.04822
  21. An FPGA-Based Frequency-Focused Vision Transformer Accelerator for Real-Time Inference on Edge Platforms - IEEE Xplore, https://ieeexplore.ieee.org/document/11165448/